國語廣播新聞語料轉述系統之效能評估 (Evaluation of Mandarin Broadcast News Transcription System) [In Chinese]
نویسندگان
چکیده
在 1995 年世界四個做語音辨認研究的著名單位(BBN, CMU, Dragon 及 IBM)開始參與一個在 當年是一項創舉的語音辨認評比之語音資料庫建立工作,該語音資料庫稱做 Hub-4,在此項評比 中希望能做到廣播新聞語料自動轉述(automatic broadcast news transcription)[1]。Hub-4 語料庫中也 已陸續加入許多語料,事實上 Hub-4 語料庫中也已經有國語廣播新聞語料,其內容是由大陸中央 台及洛杉磯中文台的廣播新聞節目錄製而成。由 1999 年 DARPA 所舉辦的語音辨認評比的結果 可以看出世界各大語音辨認研究單位在廣播新聞語料自動轉述已獲得重大的進展;不只在語音辨 認方面,在 segmentation、information extraction、topic detection 等技術都有許多成果。在英文廣播 新聞語料語音辨認方面,在 DARPA Broadcast News (Hub-4) Evaluation [2]的 F0 評比項目 其訓 練及測試環境是僅考慮無環境雜訊、背景音樂及無外國口音語者的廣播新聞語料,其語音辨識率 已可達 7.8% 的詞錯誤率(word error rate, WER);而在 F1 評比項目 其訓練及測試環境是 F0 再 加上自發性廣播新聞語料(spontaneous speech),也就是考慮了有不流利現象 (disfluencies) 的語 料,其辨認結果也可達 14.4% 的詞錯誤率[2]。在國語廣播語料語音辨認部分,Dragon 公司在 1998 年發表的辨認結果可達 36%的詞錯誤率及 25%的字錯誤率(character error rate, CER)[3]。 在國內則從 2001 年起由台大、中研院、清大、成大及交大五個學術單位,在國科會的補助
منابع مشابه
基於半監督式學習之廣播節目語音逐字稿自動轉寫系統 (Automatic Transcription of Broadcast Radio Speech Based on Quality Estimation-Guided Semi-Supervised Training) [In Chinese]
廣播節目製作時通常只有收錄語音訊號,沒有保留相對應的節目內容詮釋資料 (metadata),導致節目播出後,很難檢索節目內容,或是加以組織再利用。針對此問題, 常用的方法是以語音辨認器,自動轉寫廣播節目內容,產生語音逐字稿,但是目前缺乏 已標記好的廣播語音語料庫,因此無法訓練出適合轉寫廣播節目的語音辨識器。所以在 本論文中,我們探討如何同時使用語音訊號特徵參數、辨認器辨認結果與語言模型參數, 訓練一語音品質估算(Quality Estimation,QE)器,取代傳統只依賴語音辨認器的信心值 估算(Confidence Measure),從源源不絕,但未標記的大量廣播語料中,挑選適合訓練 語音辨認器的語料,進行半監督式聲學模型訓練,以提升轉寫廣播語料逐字稿的效能。 實驗中以一不佳錄音品質 NER-set1 與一優良 NER-set2 之廣播節目測試語料集,測試種 子語音辨認器與經半監...
متن کامل基於卷積類神經網路之廣播節目音訊事件偵測系統 (Automatic Audio Event Detection of Broadcast Radio Programs Based on Convolution Neural Networks) [In Chinese]
廣播電臺節目中通常包含語音,音樂與其他音訊事件(如笑聲或特效聲)。若能偵 測並切割這些音訊事件,就能進一步對廣播節目進行加值運用。例如,轉寫語音片段的 逐字稿,或是辨認音樂片段的歌名與曲名,以利檢索。針對此問題,在本論文中,我們 首先設計,並以人工標註出一廣播節目音訊事件資料庫,再利用 Convolutional Neural Network (CNN)自動擷取有效的特徵音訊參數,對廣播電臺的音檔做音訊事件偵測與切 割,最後轉成具時間資訊的音訊事件標註檔。實驗方面我們從教育電臺節目中,選出新 聞類與不同性質的談話類節目共 14 個,經人工標注後,獲得總長度共約 60 小時的音 檔,並用來訓練與測試 CNN和傳統 Gaussian Mixture Model(GMM)的效能。實驗結 果顯示以 CNN直接搭配頻譜參數,在偵測語音與非語音,音樂與非音樂或其它與非其 它音訊事件等的錯誤率(e...
متن کاملSemantic Associative Topic Models for Information Retrieval
主題模型(topic model)被廣泛地應用在各種文件建 模以及語音識別、資訊檢索和本文探勘系統中,有 效地擷取文件或字詞的語意和統計資料。大多數主 題模式,例如機率潛在語意分析(probabilistic latent semantic analysis) 和 潛 在 狄 利 克 里 分 配 (latent Dirichlet allocation),主要都透過一組潛藏的主題機 率分布來描述文件與字詞之間的關係,並用以擷取 文件的潛在語意資訊。然而,傳統的主題模型受限 於詞袋(bag-of-words)的假設,其潛藏主題僅能用來 擷取個體詞(individual word)之間的語意資訊。雖然 個體詞可傳達主題信息,但有時會缺乏本文準確的 語意知識,容易造成文件的誤判,降低檢索的品 質。為了改善主題模型的缺點,本論文提出一種新 穎的語意關聯主題模型(semantic associ...
متن کامل完全基於類神經網路之語音合成系統初步研究 (A Preliminary Study on Fully Neural Network-based Speech Synthesis System) [In Chinese]
A Preliminary Study on Fully Neural Network-based Speech Synthesis System 廖書漢 SHU-HAN Liao ,蔡亞伯 YaBo Chai , 廖元甫 a Yuan-Fu Liao, a 國立台北科技大學電子工程系 [email protected], [email protected], [email protected] 摘要 傳統的語音合成使用先文字分析後語音合成的架構,但是這種兩階段的作法, 通常會有,若前級分析錯誤,就會影響後級合成,且無法挽救的問題。因此,在 本論文中我們希望嘗試把前後級,全部都改成以類神經網路實現,以便將來可以 直接合成一個大的端對端語音合成類神經網路。主要的想法是,直接以字元串為 輸入單位,並盡量用大量未標記語料,進行非監督式類神經網路訓練。我們的系 統包含四個子網路,分...
متن کامل藍芽無線環境下中文語音辨識效能之評估與分析 (Performance Evaluation and Analysis of Mandarin Speech Recognition over Bluetooth Communication Environments) [In Chinese]
摘要 本論文探討語音辨識技術於藍芽(Bluetooth)無線環境下之效能。我們分別在藍芽實際與模擬使用 環境下,應用 TCC-300語料庫及 HTK軟體,進行一系列語者無關(Speaker Independent)的語音辨識實 驗。此外,為彌補通道效應之影響,我們亦引用若干強健性技術以提升辨識率。 為評估藍芽實際使用環境下之語音辨識效能,我們將 TCC-300語料庫轉錄成室內使用環境 0公尺、 4 公尺以及走廊使用環境 50 公尺三個藍芽操作環境語料庫,此語料庫可提供語音辨識或其他相關語音 處理研究之用。實驗結果顯示,在訓練環境與測試環境完全匹配情況下,測試距離為 0、4與 50公尺所 獲得之音節辨識率分別為 55.82%、53.54%、以及 42.74%,辨識率隨著距離增加而下降,而且遠低於在 原來的 TCC-300語料庫進行相同測試所得之 69.25%的辨識率。另外,在環境不匹配...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2005